Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web
نویسندگان
چکیده
Résumé. Notre objectif dans cet article est lanalyse textuelle dun site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. Lapplication de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. Lensemble de classes de pages groupés en thèmes facilitera lanalyse ultérieure de lusage du site.
منابع مشابه
Une mesure de similarité contextuelle pour l'aide à la navigation dans un treillis
Extraction et exploitation des annotations contextuelles, Noureddine Mokhtari, Rose Dieng-Kuntz Vers une fouille sémantique des brevets: Application au domaine biomédical, Nizar Ghoula, Khaled Khelif, Rose Dieng-Kuntz Utilisation du Web Sémantique pour la gestion d’une liste de diffusion d’une CoP, Bassem Makni, Khaled Khelif, Hacène Cherfi, Rose Dieng-Kuntz Approche d’annotation automatique de...
متن کاملWCUM pour l'analyse d'un site web
Résumé. Dans ce papier, nous proposons une approche WCUM (Web Content and Usage Mining) permettant de relier l’analyse du contenu d’un site Web à l’analyse de l’usage afin de mieux comprendre les comportements de navigation sur le site. L’apport de ce travail réside d’une part dans la proposition d’une approche reliant l’analyse du contenu à l’analyse de l’usage et d’autre part à l’extension de...
متن کاملComparaison de dissimilarité pour l'analyse de l'usage d'un site web
Résumé. L’obtention d’une classification des pages d’un site web en fonction des navigations extraites des fichiers "logs" du serveur peut s’avérer très utile pour évaluer l’adéquation entre la structure du site et l’attente des utilisateurs. On construit une telle typologie en s’appuyant une mesure de dissimilarité entre les pages, définie à partir des navigations. Le choix de la mesure la plu...
متن کاملDiviser pour Découvrir : une Méthode d'Analyse du Comportement de Tous les Utilisateurs d'un Site Web
The goal of this work will be to increase the relevance and the interest of patterns discovered by a Web Usage Mining process. Indeed, the sequential patterns discovered on web log files, unless they are discovered under constraints, often lack interest because of their obvious content. Our goal is to discover minority users behaviors having a coherence which we want to be aware of (like hackin...
متن کاملTraitement et exploration du fichier Log du Serveur Web pour l'extraction des connaissances : Web Usage Mining
Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l’ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s’agit en faite, d’extraire de l’information à p...
متن کامل